#señales de valor

Aprendizaje online de recompensa-castigo sin recompensas externas

Aprendizaje online sin recompensas externas: OHIRL aprende con flujos perceptuales fijos y alcanza 97.9% de precisión en acciones óptimas.